【レポート】最新情報:クロスクラウドプラットフォームの進化とコストおよびパフォーマンスの最適化 #SnowflakeDB
2023年9月8日(金)に ANAインターコンチネンタル東京にて、Snowflake 社による日本最大級のデータイベント「Snowflake Data Cloud World Tour Tokyo」が開催されました。
本記事では、Snowflake株式会社 高山氏による「最新情報:クロスクラウドプラットフォームの進化とコストおよびパフォーマンスの最適化」というセッションについてレポートします。
セッション情報
- セッションタイトル
- 最新情報:クロスクラウドプラットフォームの進化とコストおよびパフォーマンスの最適化
- スピーカー
- Snowflake株式会社 セールスエンジニアリング本部 高山 博史 氏
- セッション概要
シングルプラットフォームとしてのSnowflakeも常に進化し続けています。このセッションではクロスクラウドによるビジネス継続性向上、プラットフォームとしてのパフォーマンス改善、分析機能の追加などプラットフォームとの進化に加え、コスト監視や最適化についてのトピックも扱います。
※DATA CLOUD WORLD TOUR Tokyo – アジェンダより引用
セッション内容
はじめに
- Snowflakeの移行実績
- 以下の3種類が主
- オンプレミスのDWH、RDBからの移行
- 運用負荷の大きいビッグデータ基盤からの移行
- クラウドプロバイダーの分析サービスからの移行
- 運用、チューニング、パフォーマンスに課題があり Snowflake に移行した例は多い
- 国内の場合、S3 など安価なクラウドサービスストレージに貯めたデータ活用のためにSnowflake を導入する事例が多かった
- 以下の3種類が主
- 移行時のサポート
- Snowflake のツールとパートナーエコシステムにより移行をサポート
- プロフェッショナルサービスの提供
- コード変換(SnowConvert)
- Snowflake のツールとパートナーエコシステムにより移行をサポート
- パートナー様による移行事例も多数
以降は、以下の3つの観点で Snowflake のアップデート情報をご紹介
- ミッションクリティカル
- コストとパフォーマンスの最適化
- 高度なアナリティクス
ミッションクリティカル
セキュリティ、データガバナンス・事業継続性の2つの観点からご紹介。
- セキュリティ、データガバナンスの観点
- Snowflake は、すでに高いレベルのセキュリティ要件を満たすケースで採用事例も多い
- セキュリティ、ガバナンス関連のアップデート一覧
- データ品質モニタリング
- ロードされるデータの変化を検知する機能
- まもなくプライベートプレビュー
- データ品質モニタリング
- 事業継続性の観点
- Snowflake では AZ 単位の可用性は標準で組み込まれている
- クロスクラウドの事業継続性オプションも提供
- すでに提供済みのデータレプリケーションに加え、アカウント情報、データパイプラインのレプリケーションも提供予定
- 新機能まとめ
コストとパフォーマンスの最適化
パフォーマンスに関する事例やコストの最適化に関するアップデートをご紹介。
- パフォーマンス
- Snowflake は、プラットフォームとして常にパフォーマンスの向上を実施している
- パフォーマンス向上の例
- 下図のベンチマークは、実際のお客様のワークロードでの性能向上を計測したもの
- 毎日繰り返される同様のバッチ処理(同様のデータ量、同様のクエリ)を計測し続けたところ、15 % 程の性能向上を測定
- お客様側としては何も設定変更しておらず、純粋に Snowflake のパフォーマンスが向上していることがわかる
- 検索最適化サービスによるコスト削減とパフォーマンス向上
- 検索最適化サービス
- Enterprise Edition 以上で利用可能
- ポイントルックアップクエリと呼ばれる大規模なテーブルから条件を使ってデータを絞り込むときや、特定の種類のデータを検索するクエリのパフォーマンスを向上させることが期待できる機能
- 検索最適化サービスの機能(下図)
- 検索最適化サービス
- 検索最適化によるパフォーマンス向上の事例
- 検索最適化サービスのメリットを受けるクエリである必要があるので注意
- すべてのクエリでパフォーマンスが向上するわけではないので、ドキュメントを確認すること
- 検索最適化サービスのメリットを受けるクエリである必要があるので注意
- Top-K プルーニング
- LIMIT句と ORDER BY句の両方を含む長時間実行されるクエリの性能向上
- Snowflake 側でアルゴリズムの改善を行っている
- プルーニングによるスキャン領域の制限を活用
- クエリアクセラレーションサービス
- Enterprise Edition 以上で利用可能
- 通常のクエリよりも多くのリソースを使用するクエリがあった際に、サーバレスリソースを使用し、一時的にウェアハウス全体のパフォーマンスを向上させる機能
- すべてのクエリで効果があるわけではないので注意
- ドキュメントを確認すること
- コストの可視性と管理
- コスト把握のための機能改善について
- 予算(Budgets)が間もなくパブリック プレビュー
- 利用用途やワークロードごとに予算を設定して管理するための機能
高度なアナリティクス
高度な分析時に利用可能なアップデート情報をご紹介。
- 地理空間分析
- Snowflake ユーザーの約70%が位置情報を保存している
- Snowflake としても GEOMETRY, GEOGRAPHY データ型をサポート
- SQL の改善
- SELECT * における EXCLUDE と RENAME のサポート
- 大量の列がある際に便利
- SELECT * における EXCLUDE と RENAME のサポート
- データ型
- 型付き配列、型付きオブジェクト、型付きマップのサポート
- 間もなくプライベートプレビュー
- データロード時の品質を高める効果が期待できる
- Iceberg テーブルのサポートも開始
- 型付き配列、型付きオブジェクト、型付きマップのサポート
- SQL ベースでの機械学習機能
- アプリケーションや BI ツールからも利用できる
- Sreamlit in Snowflake
- Python のみで UI を構築できる
- 現在、Snowflake に統合中。間もなくパブリックプレビュー
まとめ
- 本セッションでは上述の各観点から網羅的にアップデート情報をご紹介
さいごに
本セッションでは、ミッションクリティカル・コストとパフォーマンスの最適化・高度なアナリティクスの3つの観点から最新のアップデート情報をご紹介いただきました。
ステータスは様々で、すでに一般提供されているものから間もなくパブリックプレビューとなり一般ユーザーでも利用可能な機能もあるので、さらなるアップデートに期待です!